在这项工作中,我们对情感和压力环境中的文本独立扬声器验证性能进行了实证对比研究。这项工作结合了浅架构的深层模型,导致新的混合分类器。利用了四种不同的混合模型:深神经网络隐藏式马尔可夫模型(DNN-HMM),深神经网络 - 高斯混合模型(DNN-GMM),高斯混合模型 - 深神经网络(GMM-DNN)和隐藏的马尔可夫模型-Deep神经网络(HMM-DNN)。所有模型都基于新颖的实施架构。比较研究使用了三个不同的语音数据集:私人阿拉伯数据集和两个公共英语数据库,即在模拟和实际压力下的演讲(Susas)和情感语音和歌曲(Ravdess)的ryerson视听数据库。上述混合模型的测试结果表明,所提出的HMM-DNN利用情绪和压力环境中的验证性能。结果还表明,HMM-DNN在曲线(AUC)评估度量下的相同错误率(eer)和面积方面优于所有其他混合模型。基于三个数据集的平均所产生的验证系统分别基于HMM-DNN,DNN-HMM,DNN-GMM和GMM-DNN产生7.19%,16.85%,11.51%和11.90%的eERs。此外,我们发现,与两个谈话环境中的所有其他混合模型相比,DNN-GMM模型展示了最少的计算复杂性。相反,HMM-DNN模型需要最多的培训时间。调查结果还证明了EER和AUC值在比较平均情绪和压力表演时依赖于数据库。
translated by 谷歌翻译